Árvore de decisão
Objetivo
O dataset Customer Churn – reúne dados de clientes de uma operadora de telecom com o objetivo: prever se o cliente vai cancelar (Churn) ou permanecer.
Descrição das colunas (dicionário de dados)
customerID: ID do cliente
Gender: Gênero do cliente (feminino, masculino)
SeniorCitizen: Se o cliente é idoso ou não (1, 0)
Partner: Se o cliente tem cônjuge/parceiro (Sim, Não)
Dependents: Se o cliente possui dependentes (Sim, Não)
Tenure: Número de meses que o cliente permaneceu na empresa
PhoneService: Se o cliente possui serviço de telefonia (Sim, Não)
MultipleLines: Se o cliente possui múltiplas linhas (Sim, Não, Sem serviço de telefonia)
InternetService: Provedor de internet do cliente (DSL, Fibra óptica, Sem internet)
OnlineSecurity: Se o cliente possui segurança online (Sim, Não, Sem serviço de internet)
OnlineBackup: Se o cliente possui backup online (Sim, Não, Sem serviço de internet)
DeviceProtection: Se o cliente possui proteção de dispositivos (Sim, Não, Sem serviço de internet)
TechSupport: Se o cliente possui suporte técnico (Sim, Não, Sem serviço de internet)
StreamingTV: Se o cliente possui streaming de TV (Sim, Não, Sem serviço de internet)
StreamingMovies: Se o cliente possui streaming de filmes (Sim, Não, Sem serviço de internet)
Contract: Tipo de contrato do cliente (Mês a mês, Um ano, Dois anos)
PaperlessBilling: Se o cliente utiliza fatura digital (Sim, Não)
PaymentMethod: Método de pagamento do cliente (Cheque eletrônico, Cheque enviado, Transferência bancária — automática, Cartão de crédito — automático)
MonthlyCharges: Valor cobrado mensalmente do cliente
TotalCharges: Valor total cobrado do cliente
Churn: Se o cliente cancelou (Sim ou Não)
Pré Processamento
1) padronização de tipos
Normalização de TotalCharges para numérico
2) Tratamento de valores faltantes
Numéricos (tenure, MonthlyCharges, TotalCharges): imputação pela mediana.
Categóricos (gender, Partner, Dependents, PhoneService, MultipleLines, InternetService, OnlineSecurity, OnlineBackup, DeviceProtection, TechSupport, StreamingTV, StreamingMovies, Contract, PaperlessBilling, PaymentMethod, Churn): imputação pela moda (valor mais frequente).
| customerID | gender | SeniorCitizen | Partner | Dependents | tenure | PhoneService | MultipleLines | InternetService | OnlineSecurity | OnlineBackup | DeviceProtection | TechSupport | StreamingTV | StreamingMovies | Contract | PaperlessBilling | PaymentMethod | MonthlyCharges | TotalCharges | Churn |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0899-WZRSD | Male | 0 | No | No | 56 | Yes | Yes | Fiber optic | Yes | No | No | Yes | Yes | Yes | Month-to-month | Yes | Mailed check | 105.35 | 5794.45 | No |
| 7940-UQQUG | Female | 0 | Yes | Yes | 64 | Yes | Yes | Fiber optic | Yes | No | No | Yes | Yes | Yes | One year | Yes | Bank transfer (automatic) | 104.4 | 6721.6 | No |
| 5394-MEITZ | Female | 0 | Yes | Yes | 60 | Yes | No | DSL | No | Yes | Yes | Yes | Yes | Yes | Two year | Yes | Bank transfer (automatic) | 80.6 | 4946.7 | No |
| 2898-LSJGD | Female | 0 | Yes | Yes | 21 | No | No phone service | DSL | Yes | No | Yes | No | Yes | Yes | One year | Yes | Electronic check | 55.95 | 1157.05 | Yes |
| 6258-NGCNG | Male | 0 | No | No | 7 | Yes | Yes | No | No internet service | No internet service | No internet service | No internet service | No internet service | No internet service | Month-to-month | No | Mailed check | 23.5 | 173 | No |
| 0650-BWOZN | Female | 1 | No | No | 18 | Yes | No | Fiber optic | No | Yes | No | No | No | No | Month-to-month | Yes | Electronic check | 73.55 | 1359.45 | No |
| 7693-LCKZL | Male | 0 | Yes | Yes | 5 | Yes | Yes | Fiber optic | No | Yes | No | No | No | No | Month-to-month | Yes | Electronic check | 80.15 | 385 | Yes |
| 2612-RRIDN | Male | 0 | No | No | 4 | Yes | No | Fiber optic | No | No | No | No | Yes | No | Month-to-month | Yes | Electronic check | 81 | 340.85 | Yes |
| 2599-CIPQE | Male | 0 | Yes | Yes | 71 | Yes | No | Fiber optic | Yes | Yes | Yes | Yes | Yes | Yes | Two year | No | Credit card (automatic) | 109.3 | 7782.85 | No |
| 7879-CGSFV | Male | 0 | No | No | 55 | Yes | No | Fiber optic | Yes | Yes | No | No | Yes | Yes | One year | Yes | Mailed check | 100.9 | 5552.05 | No |
Divisão de dados
Os dados foram divididos em 70% para treino e 30% para validação, com o objetivo de evitar overfitting e obter uma estimativa mais fiel de desempenho.
Feature Importances:
| Feature | Importance | |
|---|---|---|
| 18 | TotalCharges | 0.213633 |
| 17 | MonthlyCharges | 0.210126 |
| 14 | Contract | 0.165401 |
| 4 | tenure | 0.117384 |
| 8 | OnlineSecurity | 0.047010 |
| 16 | PaymentMethod | 0.036239 |
| 0 | gender | 0.026374 |
| 7 | InternetService | 0.025211 |
| 2 | Partner | 0.024761 |
| 15 | PaperlessBilling | 0.020355 |
| 1 | SeniorCitizen | 0.020015 |
| 3 | Dependents | 0.019258 |
| 6 | MultipleLines | 0.018562 |
| 13 | StreamingMovies | 0.013355 |
| 10 | DeviceProtection | 0.012722 |
| 11 | TechSupport | 0.011390 |
| 9 | OnlineBackup | 0.010068 |
| 12 | StreamingTV | 0.005640 |
| 5 | PhoneService | 0.002496 |
Avaliação do modelo
O modelo teve accuracy de 74% no conjunto de validação. Para um accuracy maior é necessario análise das variáveis com maior correlação para serem utilizadas no treinamento do modelo